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pA q Conjuntos de dados 


Atributos de entrada (preditivos) 
) 


j 
Nome Temp. Idade Peso Altura 


João 37 70 94 190 Saudável 
Maria 38 65 60 172. | Doente 
Exemplos | | José 39 19 70 185 Doente 
(objetos, | | gívia 38 25 65 160 | Saudável 
patroes) Pedro 37 70 90 168 Doente 
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Atributo alvo 
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a Exemplo 


Salário 


Nominal Intervalar Ordinal Racional 
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a! ! Tópicos 


= Dados 
= Caracterização de dados 
= Instâncias e Atributos 
= Tipos de Dados 
= Exploração de dados 
= Dados univariados 
= Medidas de localidade, espalhamento e distribuição 
= Dados multivariados 
= Visualização 
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a! yTipos de atributos 


= Nominal 
= Ex.: cor, código de identificação, profissão 
= Ordinal 
= Ex.: gosto (ruim, médio, bom), dias da semana 


= Intervalar 
= Ex.: data, temperatura em Celsius 


= Racional 
= Ex.: peso, tamanho, idade 
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a! yTipos de atributos 


= Nominal (=, =) 

= Valores são apenas nomes diferentes 
= Ordinal (<, >) 

= Existe uma relação de ordem entre valores 
= Intervalar (+, -) 

= Diferença entre valores faz sentido 


= Racional (*, /) 
= Razão e diferença entre valores fazem sentido 
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a! ! Exercício 


= Definir o tipo dos seguintes atributos: 
= Renda mensal 
= Número de palavras de um texto 
= Fotografia 
= Número de RG 
= Data de nascimento 
= Código de disciplina 
= Posição em uma corrida 
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A | | Exploração de dados 
o) 


= Exploração preliminar dos dados facilita 
entendimento de suas características 


= Principais motivações: 


= Ajudar a selecionar a melhor técnica para 
pré-processamento ou modelagem 


= Estatística descritiva 
= Visualização 
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En Estatística descritiva 
E 


= Pode capturar: 
= Frequência 
= Localização ou tendência central 
- Ex.: Média 
= Dispersão ou espalhamento 
= Ex.: Desvio padrão 
= Distribuição ou formato 
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a! 4 Quantidade de valores 


= Atributos também se distinguem pela 
quantidade de valores 


= Discretos 
= Número finito ou infinito e enumerável de valores 
» Ex.: código postal, quantidade de algum elemento 
= Caso especial: valores binários 
= Contínuos 
= Assumem valores contínuos, como números reais 
- Ex.: temperatura, peso, distância 
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En Estatística descritiva 
E 


= Descreve dados 


= Produz valores que resumem 
características de um conjunto de 
dados 


= Na maioria das vezes por meio de 
cálculos simples 
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| Frequência 
A: 


= Proporção de vezes que um 
atributo assume um dado valor 


= Para um determinado conjunto de 
dados 


= Muita usada para dados categóricos 


= Ex.: Em um conjunto de dados 
médicos, 40% dos pacientes moram 
no interior 
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a! ! Exemplo a! ! Medidas de localidade 


= Dados simbólicos ou categóricos 
= Moda 

grande ar 

pequena = Dados numericos 

grande « Média 

tenda = Mediana 

= Percentil 


Mancha 


66% das manchas são manchas grandes 
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a! , Exemplo a! ! Média 


= Pode ser calculada facilmente 


pequena 
grande 
pequena ) 
= Problema: sensivel a outliers 


Moda para o atributo mancha: grande 


André CP L F de Carvalho André CP L F de Carvalho 


a Mediana A Média versus Mediana 


= Menos sensível a outliers que média = Média é um bom indicador do meio de 


= Necessário ordenar valores um conjunto de valores quando os 
valores estao distribuidos simetricamente 


X sm Senéímpar (n=2r+1) = Mediana indica melhor o meio 


mediana(x) = É . , = Se distribuição é oblíqua (assimétrica) 
= (X,+X qn) sen é par (n =2r) 
2 = Skewed 


= Se existem outliers 
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a! ! Média Podada 


= [rimmed mean 
= Minimiza problema da média 
descartando exemplos nos extremos 


= Define porcentagem p dos exemplos a 
serem eliminados 


= Ordena os dados 


= Elimina (p/2)% dos exemplos em cada 
extremidade 
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a! gQuartis e Percentis 


= Mediana divide os dados ao meio 


= Outras medidas usam pontos de divisão 
diferentes 


= Quartis dividem um conjunto ordenado de 
dados em quartos 
= Primeiro quartil, Q,, é o valor da observação 
para a qual 25% do conjunto (amostra) tem 
valor menor ou igual a ela 
» Também é o valor da amostra 25º percentil 
= Segundo quartil, Q,, = mediana 
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En Cálculo dos Percentis 
E 


= Ordenar os valores 
= Posição do p-percentil: 
osição = E 
Pe 00 “2 
= Arredonda posição para o valor inteiro mais 
próximo 
= Retornar o valor nessa posição 
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| | Exercício 
no 


= Dado o conjunto de dados (1, 2, 3,4, 
5, 80>, calcular: 
= Média 
= Mediana 
= Média podada com p = 33% 
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a! ! Percentis 


= Valor da amostra 100pº percentil é uma 
valor em que: 


= Pelo menos 100p% das observações 
possuem um valor menor ou igual a ela 


= Pelo menos 100(1-p)% das observações 
tem um valor igual ou acima 


= Mediana é o 50º percentil 
= Para cálculo, usar fórmula da mediana 
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a! ! Exemplo 


= Obter os quartis e a 95º percentil para 
o conjunto de dados abaixo: 


6.22 7.67 83 940 94 
9.8 10.5 10.7 11.0 12,3 
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a! ! Exemplo 


= Obter os quartis e a 95º percentil para 


o conjunto de dados abaixo: 
6.2 767 83 90 94 
9.8 10.5 10.7 11.0 12.3 
Qu np = 0.25x10+ 0.5= 3 
usar o terceiro valor: Q, = 8.3 


Q>: np = 0.5X10 + 0.5 = 5.5 


para a mediana, usar a média entre o quinto e o sexto valor: Q, = 9.6 
Q;» np = 0.75x10 + 0.5= 8 

usar o oitavo valor: Q; = 10.7 
Poos np — 0. 95x10 + 0.5= 10 

usar o décimo valor: Pp os = 12.3 
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A | | Exercício 
no 


= Calcular quartis inferior e superior para 
os valores 


= 16, 25, 4, 18, 11, 13,20,8, 11 e 9 
= 4,8,9, 11, 11, 13, 16, 18, 20, 25 


= 600 percentil = 
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| | Exercício 
no 


= Obter os quartis, o 30º percentil e o 95º 
percentil para o conjunto de dados: 


3,20 11,70 13,64 15,60 15,89 28,44 29,07 
3/,34 41,81 43,35 43,94 49,51 49,82 51,20 
51,43 52,47 53,72 53,92 54,03 56,89 63,80 
66,40 68,64 70,15 70,98 74,52 76,68 77,84 
80,91 84,04 85,/0 86,48 88,92 89,28 91,36 
91,62 98,79 102,59 104,21 124,27 
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| | Exercício 
no 


= Calcular quartis inferior e superior e o 
60º percentil para os valores 


= 16, 25, 4, 18, 11, 13,20,8, 11 e 9 
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| | Exercício 
noi 


= Dados os números abaixo, calcular a 


mediana, o primeiro quartil e o segundo 
quartil 


= 23, 7, 12,6, 10 
= 23, 7, 12,6, 10,7 
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a! ! Boxplot 


= Gráfico que resume informações dos 
quartis 


Q Q; máximo 


4 
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a! a Medidas de Espalhamento a! à frssryaiO 


= Medem dispersão ou espalhamento de um = Medida mais simples, mostra 
conjunto de valores espalhamento máximo 
= Indicam se os dados estão: = Sejam 4Xy, ..., Xn$ OS valores do atributo 


= Amplamente espalhados ou 
= Relativamente concentrados em torno de um X Para N objetos 


ponto (ex. média) r(x) — max(x) = min(x) 
= Medidas comuns = Pode não ser uma boa medida 


Ro = Se a maioria dos valores forem próximos 
a Variância de um ponto, com um pequeno numero de 
= Desvio padrão valores extremos 
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a! , Variância a! E Momento 


= Medida preferida para analisar espalhamento = Estima parâmetros de uma população de 
dos dados valores 


n 


>, — 5) 


1 ” e n 
var(v) = — > (v —v) mom, == ou MD Gp) 
n —1 i=1 = 


(n—1) 
p(x)=f, 


= Denominador m-1: correção de Bessel, usada para = Valor de k define a medida de momento 
uma melhor estimativa da variância verdadeira 


= Desvio padrão: raiz quadrada da variância 
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a! ! Momento a! ! Obliquidade 


= K-ésimo momento central ou centrado = Terceiro momento (Skewness) 
= K=1: O (primeiro momento em torno da = Mede a simetria da distribuição dos dados em 
origem — primeiro momento central) torno da média | o 
= K=2: variância (segundo momento central) i pd i 
= K=3: obliquidade (terceiro momento ; 
central) E di iu Dividido por o? para tornar a 
= K=4: curtose (quarto momento central) esa 


1 n 
Ma a =)" p(x;) 


3 i=l 
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a! ! Curtose 


= Quarto momento (Kurtosis) 
= Medida de dispersão que captura o 
achatamento da função de distribuição 


= Verifica se os dados apresentam um pico ou 
são achatados em relação a uma distribuição 
normal 


>! 
Curt == — 
(n—-Do 
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a! ! Histograma 


= Melhor forma para verificar 
graficamente curtose e obliquidade 


Obliquidade 


Positiva Simétrica Negativa 


do od a 


Positiva Normal Negativa 
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En Dados Multivariados 
E 


= Aqueles que possuem vários atributos 


= Medidas de localização 


= Podem ser obtidas calculando medida de 
localização de cada atributo separadamente 
= Ex.: média, mediana, ... 


= Média dos objetos de um conjunto de dados 
com m atributos é dada por: 


X=(X,,...,X,) 
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a! ! Curtose 


= Para uma distribuição normal padrão, 
Curt = 3 
= Média = O e desvio padrão = 1 
= Para que a distribuição normal padrão 
tenha curtose = 0, usa-se 
Sm 


Curt= = ——3 
(n—Do 
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| | Exercício 
noi 


= Obter o valor dos 4 primeiros 
momentos centrais para os dados: 


3,20 11,70 13,64 15,60 15,89 28,44 29,07 
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ER Dados Multivariados 
E 


= Medidas de espalhamento 
= Podem ser calculadas para cada atributo 
independentemente dos demais 
= Usando qualquer medida de espalhamento 
= Variáveis contínuas 


= Espalhamento de um conjunto de dados é 
melhor capturado por uma matriz de 
covariância 

- Cada elemento é a covariância entre dois atributos 


André CP L F de Carvalho 42 





a! a Dados Multivariados a! E Exercício 


= Matriz de covariância S para um conjunto de = Calcular a matriz de covariancia para O 


dados com 1 objetos conjunto de dados: 
Sy = Covariância(x,, x) 


a, =” = 
Sj = —— 5, OX —X,) 
no la= 


Onde: 
X; Valor médio do i-ésimo atributo 
Xi Valor do i-ésimo atributo para o k-ésimo objeto 
= Obs: covariância (x, x;) = variância (x; 
= Matriz de covariância tem em sua diagonal as variâncias 
dos atributos 
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a! a Dados Multivariados a! E Exemplo 


= Covariância de dois atributos 


= Mede o grau com que os atributos variam 
juntos 
= Depende da magnitude dos atributos 
= Valor próximo de O: 
= Atributos não têm um relacionamento linear 
= Valor positivo: 
= Atributos diretamente relacionados 


= Quando o valor de um atributo aumenta, o do 
outro também aumenta 
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"o Dados Multivariados ER Dados Multivariados 
nha Do nha 


= Covariância de dois atributos = Correlação 


« Não é possível avaliar O relacionamento = Indica força da relação entre dois atributos 
Matriz de correlação R 
entre dois atributos olhando apenas a ; S 


Covariancia F; = correlação(x,, X;) — 
« Correlação entre dois atributos dá uma indicação Eudes ESA 
mais clara da força da relação linear entre eles x; i-ésimo atributo 


- Mais popular que covariância S;: Variância do atributo x; 


covariância(x,, X,;) 


= Obs: correlação (x, X;)) = 1 
= Elementos da diagonal tem valor 1 
= Demais elementos têm valor entre -1 e +1 
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E Exercício BM Outras formas de sumarizar dados 
e Z o a : o 


= Calcular a matriz de correlação para o = Visualização gráfica 


conjunto de dados: = Em vários casos, facilita compreensão de 
aspectos mais complicados dos dados 


= Ex.: Histogramas 
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a! E Diagrama de torta a! a Scatter Plot 


= Frequências relativas podem ser vistas = Usado para ilustrar correlação linear 
no diagrama circular = Cada objeto é associado a uma posição 
som em um gráfico 
ni ds dia) = Valores dos atributos definem sua posição 
= Os valores podem ser inteiros ou reais 


= Matrizes de scatter plot resumem relação 
entre varios pares de atributos 
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a! l Scatter Plot a! ! Faces de Chernoff 


= Matriz para atributos do conjunto iris = Criado por Herman Chernoff 


pa = Mapeia os valores dos atributos para 
| Diferentes classes . is famili f 
são indicadas por imagens mais familiares: faces 
- | Cores diferentes = Cada objeto é representado por uma face 
= Cada atributo é associado a uma 
característica específica de uma face 
= = Baseia-se na habilidade humana de 
a distinguir faces 


5 6 7 82 3 2 4 6 0 1 2 
sepal length sepal width petal length petal width 

























































































































































































petalwidth petallength sepalwidth sepal length 
“a » on wa asa o 
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a! Faces de Chernoff a! ! Exercício 


= (E Setosa = Representar os dados a seguir usando 


E faces de Chernoff 


68 Mancha 


1-4 Versicolour 
: grande 
pequena 


RB grande 
o) pequena 


05 Virginica 
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a! jonsiderações Finais a! ! Perguntas 


= Dados 


= Caracterização de dados 
= Instâncias e Atributos 
= Tipos de Dados 

= Exploração de dados 
= Dados univariados 


= Medidas de localidade, espalhamento e 
distribuição 


= Dados multivariados 
= Visualização 
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